演讲

CES 2026 — 推理时代与 Agentic AI

2026 年 1 月 6 日，黄仁勋在拉斯维加斯 CES 2026 发表主题演讲。这是一场近两小时的"马拉松"式 keynote，现场 3000 人座无虚席，场外 3000 余人通过分会场和流媒体同步观看。演讲回顾了 2025 年 AI 行业的爆发性进展，系统阐述了从预训练到推理时代的三阶段 scaling law、agentic AI 的崛起、物理 AI 的最新突破，以及 Vera Rubin 新一代超级计算平台的全面发布。

一、10 万亿美元的计算正在被 AI 重写

黄仁勋开场便抛出他标志性的宏大叙事：计算机产业每 10 到 15 年经历一次平台跃迁——从大型机到 PC，PC 到互联网，互联网到云，云到移动。但这一次，两个平台跃迁同时发生。

一方面，应用将不再"编写"而是"训练"出来，不再运行在 CPU 上而是运行在 GPU 上。过去的应用是预编译、预录制的，而现在的应用"理解上下文，每一次都从零开始生成每一个像素、每一个 token"。

另一方面，加速计算和人工智能彻底重塑了计算的五层蛋糕——芯片、系统、基础设施、模型、应用。

"过去十年部署的约 10 万亿美元的计算，现在正在被现代化为这种新的计算方式。每年数千亿美元的风险投资涌入，全球 100 万亿美元的产业正在把研发预算从传统方法转向人工智能。人们问'钱从哪里来？'——钱就从这里来。"

这是黄仁勋对"AI 泡沫论"最直接的回应：这不是泡沫，这是存量计算基础设施的代际更替。

二、Scaling Law 的三个阶段：从预训练到推理

黄仁勋梳理了 AI 发展的关键里程碑：2015 年 BERT、2017 年 Transformer、2022 年 ChatGPT 时刻。然后他重点讲述了 2023 年以来的质变：

第一阶段：预训练（Pre-training）——用海量数据让模型"学习"。

第二阶段：后训练（Post-training）——用强化学习让模型"习得技能"。不再是简单的监督微调或模仿学习，而是让计算机自己反复尝试，学习如何完成任务。

第三阶段：推理时计算（Test-time Scaling）——OpenAI 的 O1 模型是这个阶段的开端。黄仁勋说，这本质上就是"思考"：

"不仅预训练让模型学习，后训练用强化学习让它习得技能，现在还有推理时计算——换一种说法就是'实时思考'。每一个阶段都需要巨量的计算，而计算的 scaling law 仍在持续。"

这三个阶段的叠加意味着 AI 对算力的需求呈指数级膨胀：模型参数每年增长一个数量级，推理时生成的 token 数量每年增长 5 倍，而上一代 AI token 的成本则以每年 10 倍的速度下降——这并非效率提升，而是竞争白热化的结果，每个人都在拼命冲向下一个前沿。

三、DeepSeek R1 与开源模型的爆发

2025 年最让黄仁勋兴奋的事件之一是 DeepSeek R1——第一个开源的推理系统：

"去年我们见证了 DeepSeek R1 的进展，这是第一个开源的推理模型。它让全世界大吃一惊，并且激活了整个运动。真的是非常、非常令人兴奋的工作。我们对此感到非常高兴。"

他坦承开源模型"仍然稳定地落后前沿模型约六个月"，但每六个月就有新的开源模型涌现，而且"越来越聪明"。下载量在 2025 年爆炸式增长，因为初创公司、大公司、研究人员、学生，乃至"每一个国家"都想参与 AI 革命。

"数字形式的智能，怎么可能把任何人落下？"

黄仁勋还透露 NVIDIA 自己运营着数十亿美元规模的 DGX 超级计算机集群，用于开发自己的开源模型。他提到了 NVIDIA 在蛋白质（La-Proteina、OpenFold3、EVO 2）、天气预测（Earth-2）、语言模型（Nemotron 3，一种混合 Transformer-SSM 架构）等领域的前沿工作——所有这些模型和数据都完全开源。

四、Agentic AI：数字员工的时代

2024 年 agentic 系统开始萌芽，2025 年则"到处开花"。黄仁勋列举了 agentic AI 的核心能力：推理、查找信息、研究、使用工具、规划未来、模拟结果。

"我最喜欢的 agentic 模型之一叫 Cursor，它彻底革新了 NVIDIA 内部的软件编程方式。"

他分析了为什么 agentic 系统是 AI 应用的未来架构：

多模型（Multi-model）——一个 AI 应该能调用"世界上所有伟大的 AI"来解决问题链条中的每一个环节。他提到 Perplexity 是他第一次看到同时使用多个模型的系统，"我觉得这完全是天才"。
多模态（Multimodal）——语音、图像、文本、视频、3D、蛋白质。
多云（Multi-cloud）——模型散布在各处。
混合云（Hybrid cloud）——有些在边缘，有些在医院本地，有些在企业内部。

黄仁勋将 agentic AI 与企业平台的结合描述为一场界面革命：

"不再是 Excel 里一堆你填数据的格子，不再只是命令行。你和你的平台交互的方式变得更加简单——就像你和人交互一样。"

他列举了 Palantir、ServiceNow、Snowflake、CrowdStrike、NetApp 等企业合作伙伴正在将 NVIDIA 的 agentic 框架深度集成到各自的平台中。

五、物理 AI：从屏幕走进真实世界

黄仁勋投入了大量篇幅讲述物理 AI——他认为这是 AI 下一个最重要的疆域。核心问题是：如何让一个"在计算机里聪明"的 AI 理解物理世界的常识？

"物体恒存——我看向别处再看回来，物体还在那里。因果性——我推它，它倒了。它理解摩擦和重力、惯性——一辆重卡要更长时间才能停下来，球会一直滚下去。这些对一个小孩来说是常识，但对 AI 来说完全未知。"

物理 AI 需要三台计算机：训练 AI 的计算机、推理（运行在汽车/机器人中的边缘计算机）、以及仿真计算机。仿真是 NVIDIA 的根基所在：

NVIDIA Omniverse：基于物理的数字孪生仿真世界
Cosmos：不是语言的基础模型，而是世界的基础模型——理解物理世界运作方式，并与语言对齐。它能从单张图像生成逼真视频，从 3D 场景描述生成物理一致的运动，从驾驶遥测数据生成环视视频，从规划模拟器生成多摄像头环境
GR00T：人形机器人系统——关节运动、移动、行走

"Cosmos 是世界领先的世界基础模型。它已被下载数百万次，在全球范围内使用，为物理 AI 的新时代做好准备。"

黄仁勋特别强调了 Cosmos 的核心洞见：把计算变成数据。真实世界的数据稀缺且昂贵，但用基于物理规律的合成数据生成，可以有选择地、巧妙地生成训练数据。

六、自动驾驶：Alpamayo——会思考的自动驾驶 AI

NVIDIA 花了八年时间打造自动驾驶全栈，今天宣布 Alpamayo——世界上第一个"会思考、会推理"的自动驾驶 AI：

端到端训练：从摄像头输入到方向盘、刹车、油门输出
训练数据来自人类示范驾驶 + Cosmos 合成数据 + 数十万条精细标注
关键创新：它不仅执行动作，还推理自己即将采取的行动——告诉你它要做什么、为什么这么做、以及规划的轨迹

"驾驶的长尾问题使得我们不可能收集到每一种可能场景的数据。但每一个场景，如果被分解成一堆更小的场景，其实都是你能理解的正常情况。AI 只需要推理它。"

Alpamayo 已开源。NVIDIA 与梅赛德斯-奔驰合作五年，搭载 Alpamayo 的 CLA 已获 NCAP "世界最安全汽车"评级。黄仁勋宣布这辆车将于 2026 年 Q1 在美国上路，Q2 进入欧洲，Q3-Q4 进入亚洲。

该系统的安全设计值得注意：同时运行两套 AV 软件栈——Alpamayo（端到端 AI 栈）和一套完全可追溯的经典 AV 栈。安全策略评估器在两套系统之间动态切换，这是"世界上唯一一辆同时运行两套 AV 栈的汽车"。

七、机器人生态与工业 AI

黄仁勋请上了一群机器人"朋友"登台——它们内置 Jetson 计算机，在 NVIDIA Omniverse 的 Isaac Sim 和 Isaac Lab 中完成训练。他展示了 NVIDIA 合作的机器人生态：Nurabot、AGIBOT、LG、Caterpillar（最大型机器人）、Agility、Boston Dynamics、Franka、Universal Robotics 等。

在工业 AI 领域，NVIDIA 宣布与 Siemens 的深度合作——将 CUDA 平台、物理 AI、agentic AI、NeMo、Nemotron 深度整合进西门子的 EDA、CAE 和数字孪生工具链。同时与 Cadence、Synopsys 的合作也在深化：

"未来会有 agentic 芯片设计师和系统设计师与我们一起工作，帮助我们做设计——就像 agentic 软件工程师今天帮助我们的软件工程师写代码一样。"

八、Vera Rubin：六芯片极端协同设计

这是本次 keynote 的硬件重头戏。黄仁勋先介绍了 Vera Rubin 名字的来源——美国天文学家 Vera Rubin 发现了暗物质的存在。然后他进入了技术细节。

为什么需要每年更新？ 模型每年增长 10 倍，token 生成量每年增长 5 倍，token 成本每年下降 10 倍——但摩尔定律已死，每年能增加的晶体管数量大约只有 1.6 倍。仅靠堆晶体管不可能跟上。

答案是 Extreme Co-Design——同时重新设计所有六颗芯片：

Vera CPU：88 核、176 线程（空间多线程技术），在功耗受限的世界中，性能每瓦是竞品的两倍
Rubin GPU：浮点性能是 Blackwell 的 5 倍，但晶体管数量仅为 1.6 倍。秘密武器是 NVFP4 Tensor Core——一个能动态自适应调整精度的处理单元，在可以牺牲精度的地方获得更高吞吐，在需要精度的地方回到最高精度
ConnectX-9 NIC：每 GPU 1.6 Tbps scale-out 带宽
BlueField-4 DPU：卸载存储和安全计算，并承载全新的 KV cache 上下文内存管理
NVLink 6 交换机：400 Gbps SerDes，机架内带宽相当于全球互联网流量的两倍（240 TB/s vs 全球约 100 TB/s）
Spectrum-X 以太网光子交换机：512 端口、200 Gbps 共封装光学，基于 TSMC 共同创新的 Coop 硅光子工艺——世界上第一颗量产硅光子集成交换芯片

Vera Rubin NVL72 机架：18 个计算节点、72 颗 Rubin GPU、9 个 NVLink 交换托盘、2200 亿晶体管、近两吨重。从 43 根线缆简化到零线缆，从 2 小时组装简化到 5 分钟。100% 液冷，入水温度 45°C，无需水冷机，用"热水"冷却超级计算机。

关键性能指标：
- 训练：以 DeepSeek++ 10 万亿参数模型为基准，Rubin 只需 Blackwell 四分之一的系统即可在一个月内完成训练
- 工厂吞吐：比 Blackwell 再提升约 10 倍（Blackwell 已比 Hopper 提升 10 倍）
- Token 成本：降至约十分之一
- 全系统机密计算：所有总线（PCIe、NVLink、CPU-GPU、GPU-GPU）全部加密

黄仁勋还宣布了一个全新品类：KV Cache 上下文内存存储。随着对话变长、模型变大、用户变多，HBM 已经不够用。Vera Rubin 机架内集成了 BlueField-4 驱动的上下文内存节点，每 GPU 额外提供 16 TB 上下文内存，由 Dynamo KV cache 管理系统运行，直接挂在东西向 Spectrum-X 网络上。

"今天，我可以告诉你们，Vera Rubin 已经在全面量产中。"

黄仁勋还展示了路线图：GB200 一年半前开始出货，GB300 目前全面量产，Vera Rubin 紧随其后。

九、Token 经济学与数据中心即工厂

贯穿整场演讲的经济学逻辑可以提炼为：

数据中心是生产 token 的工厂（AI 工厂）
一座千兆瓦数据中心造价约 500 亿美元，只能消耗 1 GW 电力
你的吞吐量/瓦特直接等于你的收入
Spectrum-X 带来 25% 的额外吞吐——在 500 亿美元的数据中心里，这价值 50 亿美元，"网络基本上是免费的"
Vera Rubin 系统功耗翻倍但能效翻倍以上，节省全球数据中心约 6% 的电力

这就是 Token 经济的底层逻辑：每一代硬件的使命是让下一代前沿模型成为可能，同时让上一代 token 的成本暴跌。

十、NVIDIA 的全栈愿景

演讲结尾，黄仁勋回到全局视图：

"NVIDIA 不只是造芯片。AI 是一个完整的栈。我们正在从芯片到基础设施、到模型、到应用，全面重新发明 AI。我们的工作是创建整个栈，让你们所有人都能为世界创造不可思议的应用。"

从 OpenAI 是当今最大的 token 生成者，到开源模型终将成为最大阵营；从 Cadence 和 Synopsys 的 EDA 革命到 Siemens 的工业数字孪生；从梅赛德斯-奔驰的自动驾驶到人形机器人的涌现——黄仁勋描绘的是一幅 NVIDIA 作为"AI 时代的基础设施公司"的完整图景。

他用一句轻松的话结尾："我唯一的请求是——无论你做什么，尽量用一点点 NVIDIA。"

原文出处：Rev.com 完整转录稿